查看原文
其他

王小川想提出中国AGI第三种可能性

张小珺 张小珺 2024-03-17

治理是把两个不同的东西融合起来,

变成更大的真相



作者:张小珺 

- 本文首发于腾讯新闻 -


在2024年春节复工的第一周,百川智能CEO王小川罕见地在内部发了一次火。

彼时,中国科技界沉浸在对Sora的惊叹中。但对于这一点,这位看上去性情温和的CEO,相当固执。“为什么做Sora?不是有个技术我就得跟。”在他眼中,OpenAI推出的视频生成模型Sora和之前的ChatGPT根本不是一支技术脉络,“AGI理想一定要以语言为中轴做模型”,Sora是阶段产物。

在公司技术会上,工程师展现了对文生视频的热情,试着说服他应该尝试。

这让王小川有点生气。

“大家没有站到更长远的角度考虑终局,我到底在干嘛?”在他看来,要么Sora靠近AGI理想,要么靠近现实场景,但它“两个都不靠”。

一个星期后,王小川明确拍板:

百川不走Sora路径

——“被我摁死在这了。”他说。

王小川出生于1978年,曾获国际信息学奥林匹克竞赛金牌,他清华大学计算机系毕业后加入搜狐,6年从高级技术经理晋升至CTO,于公司内部孵化创业。2010年随着搜狗独立分拆,他也出任这家公司CEO。直到11年后腾讯全资收购搜狗,王小川才结束这段漫长的事业生涯。他这么形容这段经历:“搜狗没有做成大厂,但是拆开看里面,我们承受和经历了大家不能想象的东西。”这给他个性上带来许多改变。2023年4月,王小川宣布入局大模型创业。

在我们发布《杨植麟复盘大模型创业这一年:向延绵而未知的雪山前进》《朱啸虎讲了一个中国现实主义AIGC故事》报道后,以月之暗面创始人杨植麟为代表的“技术信仰派”和以金沙江创投主管合伙人朱啸虎为代表的“市场信仰派”,双方观点引发广泛关注。此外,朱啸虎三次在报道中点名王小川和百川智能。

五天后,王小川接受了我们的访谈。他试图阐释在技术和市场、理想主义和现实主义之外,中国AGI还有第三种可能性——他形容所有人都在“盲人摸象”,他或许能在技术和场景的交叉点上,“把两个看得全一点”

——他既做AGI(通用人工智能),又做具体的场景。

“治理是把两个不同的东西融合起来,变成更大的真相。”他说。

由于百川智能是较晚入局的一家中国大模型企业,他也复盘了自己的创业始末、思考与心态起伏,并对朱啸虎的质疑一一进行了回应。

王小川或许代表更本土的一派AI创业者。你会看到,他和朱啸虎有共识也有分歧,虽和杨植麟一样是技术背景,但有一套不同的语汇系统。在王小川的语汇库里,你会常常遇见这样一些表达:“基因”、“哲学”、“生命模型”、“牛顿定律”、“智能纪元”,甚至“太虚幻境”。

“我们缺乏一种自信。”王小川说,“在技术里面,我们认为美国代表的最高级,他们确实有人才储备和资金,但不代表在更高的哲学思考里,他们就一定是对的。”

以下为王小川访谈。(为了方便阅读,作者进行了文本优化)





Q:看到朱啸虎在报道中说“妈的,王小川也一样”,你怎么想?

A:

我想他是骂我吗?后来一看好像不是骂我。

Q:这句话多少人转给你了,看了几遍?

A:整个看了一遍,但好几个人转我。就莫名躺枪。我想他们转给我的原因,要是知道骂我就不转给我了,应该是好话。但我听了觉得还是没完全理解我们做的事——但我理解他呀。

Q:你多大程度认同他,多大程度不认同他?

A:他是一个率真、敢表达、一点不伪装的投资人,而且有自己的经验。一个人能做自己,有一套成熟、成功的打法,这值得鼓励。他是很真的现实主义,不掖着藏着,而不是一边挂着理想、一边说着现实的话。

Q:他不理解你的地方是?

A:正好有另一篇杨植麟的报道,把他当成技术理想主义代表,走在朱啸虎反面。他谈技术,怎么长窗口,怎么能统一建模,谈的是很未来、很远的事。

大家做的就像“盲人摸象”。这只象是一只完整的象,它既是现实的,又是理想的。他们各自看到了大象的局部,也都很自洽。就商业运作,朱啸虎更自洽,至少形成赚钱闭环;杨植麟呢,理想主义离现实有距离。但他们都不代表从技术到商业的完整闭环,不代表世界的全部。

Q:朱啸虎说和你在活动上见过、聊过。他说,不是和你关系不好不投你,确实不知道怎么退出,有这件事吗?

A:

我印象是在深创投组织的一个会上,中午吃饭坐我旁边,就聊了几句。

他第一个讲,他只看能快速赚钱的,不能赚钱的他不投。在今天这种环境,这是挺务实、旗帜鲜明的一种投资方式。是对他自己的自洽,也是对他LP负责。我挺尊重他这句话。

第二个讲,如果你们最后有并购机会,百川也是会考虑的,但现在不鼓励大的并购,退出路径很渺茫,他看不清。

他提的几个东西我都挺理解。只是现实主义、理想主义都不太构成今天完整的世界。

我用八个字总结:盲人摸象、小马过河。盲人摸象是每个人都看到世界的一个局部——杨植麟看到象鼻子,朱啸虎看到象腿。

小马过河是每个公司都在过程中找不一样的路。小学读盲人摸象挺可笑,但随着年龄增长,发现我们都是盲人,只是看的多多少少不一样。

Q:他们看到的是象鼻子、象腿,你看到的是什么?

A:至少在我心中,我是把两个看得全一点,至少看到大部分的象长啥样子。因此,既有理想主义,又有现实主义。今天,这样一个能力在中国特别需要。

Q:在我们这两篇报道发布后,很多人会自发站队杨植麟或朱啸虎,你站他们其中一方,还是你代表第三种声音?

A:

我一定是第三种声音。

他们本来就不完整。如果两方站队,冲突的东西没和解,一定是不对的了。我特别想画一个图——(开始在白板上作图)——一个圆柱体,如果从三维上看它是圆柱体,二维呢?投影到侧面变成方的,投影到下面变成圆的。当你讨论它到底是圆是方的时候,都是出问题了。

治理是把两个不同的东西融合起来,变成更大的真相。

这才是一个更完整思考——怎么能把理想和现实兼顾,看到大家没看到的东西?

Q:你过去一年多少次遇到过朱啸虎这样的投资人,他们可能拍着你的肩说,不是我跟你的关系不好,但是我就是不能投你?

A:如果没有这个文章,我都不记得朱啸虎这件事。这是特别自然的,并不会在心中有波澜。细想的话,应该不少。但也有很多朋友投进来,我挺感激的了。像朱啸虎这种没投的,我也挺尊重。

Q:你感到过愤怒吗,对于他说的话?

A:真的没有一点愤怒,我就是respect。

Q:你是很难有情绪波动吗?过去一年大模型创业中,为了什么事生气过、愤怒过?

A:挺多的。比如,大家对技术理解不足。我更多针对的不是朱啸虎这种,他逻辑足够自洽——他说我就赚快钱,那我这么投,很闭环。

但如果说,我想投大模型,做选择就有不同声音了,他的目标、动作和决策链条是偏差的——一种认为技术不重要,反正技术会扩散,看场景就行了。毕竟这是一个技术为核心的创业,这已经缺乏对技术基本尊重了,是一种悲哀。

还有一种只迷信美国人的东西。

所以还是没看全这个事。

不被理解,在我20年工作中,是很正常的。

你会惋惜,但不会影响你干活。

Q:你对谁有过情绪?

A:没有特别熟的朋友反而不生气。有些人属于特别笃定自己,还跟我沟通过,但没理解,这个我情绪大一些。



Q:我们从你这次创业的源头聊一聊。你是2023年2月开始关注大模型,4月入局,中间两个月在想什么?

A:那会在筹备、组团队。4月官宣的时候,我们大概50人规模了。

核心的源头是我好奇宇宙规律。我们知道曾经是牛顿把物理学变成数学。这句话不是我讲的,是康德讲的。牛顿提出了“观察、假说、实验”一套范式。借用简单几个公式刻画宇宙规律,科学奠基最多以物理学为基础。

我2000年读研究生做生命科学,基因相关。我发现,物理范式对宇宙规律在模拟里面很多是无效的,尤其对生命,对复杂事物。牛顿力学是偏线性系统,到了非线性系统走向混沌了,物理学就失效了。有个经典问题叫“三体”,三个球互相转,轨道通常不确定了。小说《三体》是基于这样的背景。

生命大大的不符合物理公式。

20年间我一直在思考怎么把生命变成数学模型。

Q:这段创业开始之前,你是在做一个睡眠相关项目?

A:对。核心是需要收集更多真实场景数据,医疗数据不够。通常,病人只有在医院才是被观察对象,而在治疗期间也缺乏完整数据收集。数据量不够,生命建模不可能完成。做睡眠的目的是在日常生活中收集——从心脏系统、呼吸系统、体重等收集数据。医学界有一个词叫Real World Studies,真实世界研究。这是2021年到2023年初。

当使用ChatGPT,一下trigger(触发)我之前的论断:

机器掌握语言,强人工智能就到来。

语言一旦被攻克,我们构建生命数学模型就会有新武器。谈医学,大家老觉得我在做vertical(垂直的)——我们谈生命模型,它是不比语言模型小的一件事。

今天Sora没有懂物理规律,没有深入到后面的分子、细胞相变,它只是模拟引擎。因此Sora要把物理学全都学会才会变成world model,世界引擎。这也跟语言相关。语言为中轴,Sora只是模拟器,做不到世界模型。

同样,当你做生命模型,要站在语言模型之上。语言构造整个概念空间,把更多生命数据放进来。当我们做这件事,我就思考一个问题:

我们现在有了GPT这个武器,未来可以构建更大的世界模型,包括生命模型。

Q:也就是说你在健康和大模型这两段创业,是可以关联起来,不是割裂的?外界在描述的时候倾向于认为,你是放弃了前一段,开始了这一段。

A:没有,这两个在一起,都是对世界建模。AGI不仅能解决大家今天看到的问题;还能往上走,研究生命的数学模型;也能往下走,变成医疗健康服务。在去年1月,我们开始就惊叹了。

Q:ChatGPT是前年11月30日出现的。

A:那时还在疫情,大约在去年1月份(开始试用)。

当时我还有洁癖——我要用自己的账号、自己的IP去访问,所以单独从美国搞了一个手机回来。不是在淘宝上买的账号。

Q:哦,你为什么有这个洁癖?

A:我也不知道,这个东西你要真的进去,而不是用淘宝的方式带我进这个账号。可能也说不清楚。所以是用我自己的账号拨上去的。

用完之后发现变天了。第一个月沉浸在震撼中,第二个月才意识到这对生命科学研究、大众健康服务有巨大意义。去年2月我决定做大模型,开始组团队。

Q:我看你之前说,王慧文(美团联合创始人、光年之外创始人)的做法是招英雄,直接敲门就行了;但你一想到要做,可能会立刻想这和我过往的经历、搜狗团队、国内最精英的人是什么样的关系,这个时候大家的决策路径就不一样了——听起来你的决策链好长。

A:王慧文是有一种英雄主义,招了人做啥再说。我是有更多思维链路,未来这个世界长啥样?

把vision、mission,甚至技术路径想清楚了,我才能干活。

Q:你怎么看,你入局的时候大家总是把你和王慧文放在一起比较,特别是投资人。按他们的分类,你们是一类创业者;杨植麟属于另一派,小天才;MiniMax创始人闫俊杰是高管下海创业。

A:有他们的道理吧,毕竟你在分的时候,就跟盲人摸象一样。就摸了你的腿,最显著特点是你原来做企业。这是一种分类方法。按我的逻辑,分类和比喻就是智力,这个分法代表了一种智力水平。

Q:哪种智力水平?

A:不太高级的。

慧文在商业上比我成功多很多,但本质上美团的成功不是技术推动。

我们当年做输入法,做搜索,对技术依赖度是很近的,甚至在工作外,我们很早就把前沿技术用进来。

搜狗,我们悲催地方在于,做搜索比百度晚4年,而且在搜狐一个媒体公司——这种难度大家并没看见。和微软的朋友聊,他们做Bing,在面对Google的时候,对搜狗就特别称赞。他能设身处地知道,你在那个环境做到今天的不容易之处。那会儿我们是引领过一群最天才的人工作,只是最后没取得大成。

信息不足会带来分类体系偏差。对技术的理解,我们有自己的高度。投资人没有辨别能力,只能听学者或美国学术圈的说法。

我们缺乏一种自信。在技术里面,我们认为美国代表的最高级,他们确实有人才储备和资金,但不代表在更高的哲学思考里,他们就一定是对的。

Q:也有人说当时王慧文入局,导致你们第一笔钱很难融。

A:还好吧,他确实吸引了大家的眼球和注意力。美团在商战有一套打法,包括怎么跟投资人沟通。我们第一笔也是五千万美金。在商业领域,慧文比我老练很多。我用简单的逻辑:你五千万朋友圈的钱,我也五千万朋友圈的钱。每个人有自己的朋友圈。

不高级,至少在商业上——

如果对方比你成熟,你跟着学就行了;但在你优势领域,你发挥得更好

——这是正常做法。

Q:他和资本圈关系更好,你会感到落差吗?

A:你得接受,这是一个现实。



Q:我记得你在去年4月公布大模型创业以后去了美国考察,得到什么新认知?

A:我是6月发了第一版模型才去美国。大家有不同见解,有的逻辑说到美国招人,招到OpenAI的人回来再干——

到目前为止,没有迹象表明,任何一个中国公司挖到OpenAI的人。

有几个公司讲他的团队主要来自美国人,最后也都没兑现。今天大多这样一些公司,还是基于之前的积累或中国人在做。所以我们的策略是,优先自己入行做起来。那时大家还不太相信,百川能做模型吗?是不是套壳的?我们最骄傲的是能把模型做出来。去年9月发了第二版。

去美国——我开始理解大家在谈什么。我有自己的见解和认知,比如我们对强化、多模态的理解。

活是干出来,只是话语体系对不上。

去了之后我才知道,因为投资人很多思路来自美国技术圈,大家在语言体系上能对齐一些。我并不觉得得到了技术上立刻该怎么办的认知,只是话语体系提升了。

Q:话语体系提升的体现是?

A:数据、算力、scale,他们用这种语言在表达。才知道他们担心什么,认可什么。我在谈不同观点的时候,跟他们想法不一样,能回溯他们想法来源。

我也看到了OpenAI代表了理想主义精神。他们真的想把一千万颗GPU串一块训练模型,英伟达一年才生产一百万颗。去之前我说

“理想上慢半步,落地上快一步”

,回来改成“理想上慢一步,落地上快三步”。这代表我们在国内做大模型的定位。

Q:如果你要构建的是模型大楼,你会怎么画这个图,让它有画面感?

A:今天的娱乐行业,本质在追求《红楼梦》里的“太虚幻境”。娱乐可以笼统划分为——小说、影视、游戏。语言是概念空间,小说用文字构建一个想象的世界,每个人在读的时候有自己的想象。电影和视频是通过声音、图像和视觉把故事呈现出来。游戏加入了互动元素。

在不同娱乐形式背后,都有一个“故事引擎”,这个引擎负责讲故事,通过人物角色(NPC)与观众互动。因此,并不是说做Sora、Midjourney就娱乐了,无论小说、电影还是游戏,它们都是通过故事驱动。娱乐世界核心逻辑是,由故事引擎推动多模态和互动,这是三个要素之间的关系。

Q:娱乐是你构建的模型大楼的所有,还是只是一部分?

A:一部分,娱乐就是一个大的模型,我称之为“虚拟世界模型”或“太虚幻境”。

Q:第二个和第三个是什么?

A:第二是生命模型,是推动医疗和对生命的这样一个结构。

第三是真实世界的引擎,帮助人做生产力提升或决策。

最后有三个不同模型。你可以底层构建一块,但我们知道它用在不同领域。

这是我们对场景的划分,而不是像大家讲的:AGI什么都可以干。

Q:他们认为底层会有一个通用模型。

A:那有几个场景呢?大家称之为,他那个榔头啥都能干。

但如果你不带着钉子榔头一块看,就变成了朱啸虎批评的了。

你的场景在哪?凭什么你的模型能解决这个场景?

Q:所以你既做基础模型又做垂直模型,既做开源又做闭源。

A:啊,我没把它叫做“垂直模型”。我们还是说“AGI模型中间的一部分”。

这就是我们理解的三个大的世界——虚拟世界、生命世界、真实世界。

最终有一天可能合在一起,没关系,但我得做模型的时候知道应用场景最后需要什么样的能力。

Q:在to B和to C上怎么想?

A:to B,在中国天花板远远低于to C。我们相对保守、收敛。在金融领域,有一些结构性机会会去把握。

Q:部署一个大模型的价格是多少?

A:我不了解,我在to B上没花自己的精力。

Q:朱啸虎质疑,大模型这么早陷入价格战,公司很难独立生存。他说现在部署一个私有化大模型都不到100万人民币。

A:他说的是对的,光做to B无法养活百川,核心拼的是超级应用。to C我提了三个词:创造、健康、快乐。

Q:我可以想象,你要做三栋模型大楼,三栋楼会分别形成三个应用?

A:模型即应用,理想状况我们可能三个应用,可能两个应用,剩下的把to B开放,大家调用。

Q:“三栋楼”这个描述对吗?

A:

我甚至觉得是“三个世界”。

Q:之前百度、字节这些巨头都做过很长时间医疗,为什么不成功?

A:那时技术没突破,机器是人工智障。机器没掌握语言,你怎么可能变成医生?更多只是生产关系的改变,帮你挂号,帮你连接信息,而不是医疗知识、经验和逻辑供给——那时叫“信息时代”,现在叫“智能时代”。

今年初大家给我发消息说:川总,元旦快乐。我回的消息是:智能纪元二年——去年是元年,今年是二年——

我们很有幸成为智能纪元元年诞生的公司。

当ChatGPT来之后,我已经看到这个技术能解决的问题、最后的画面感是什么。这两个画面感朱啸虎、杨植麟都没画出来。杨植麟是屠龙刀,我有屠龙刀的刀了,然后去找龙。

Q:杨

植麟的想法是做OpenAI+字节,

技术理想主义的模型加商业化成功的应用。

A:是什么呢?

Q:你的应用是什么?

A:

从AGI的话,事实上我们是在造人。

我们不是在造一个工具。有人跟我说今天GPT太弱,七位数乘法都不会做。我说人也不会做啊,调用工具就行了。GPT核心,第一它会语言,马克思讲人和动物的区别是人会语言。第二,它会制造和使用工具。我们在造一个类人的生命,一种新物种。当你谈ChatGPT,谈字节,谈anyway的时候,没有回到我们到底在构建什么样一种价值。

Q:你要做的应用是像人一样的应用?

A:一部分像人,我们还有更多思考。大家经常提productivity(生产力),我觉得第二就是像人,它是我们的助手、我们的顾问,是专业的人。也许是科学家,像爱因斯坦,但更多会像医生、律师、老师。

知识密集需要供给的行业,是这波GPT最大前景。

大模型是“造人”和“造世界”,都是造后面的灵魂。人的灵魂是思想,世界的灵魂是大世界后面的一种推动力量。

Q:你说“理想慢一步,落地快三步”,现在的理想和落地到什么阶段?

A:2024年底,我们要兑现超级应用,贡献维度高于只是scaling law或者长窗口这样局部的技术提法。这个应用2024年触手可及。怎么说呢?上半年吧。很快就能看到,医疗健康是一定会有的。

Q:在你看来,有什么是百川能做但OpenAI不能做的?

A:没有他们不能做的,但他们选择做不做。OpenAI的追求是尽快实现AGI,优先探索技术边界,这也代表了西方范式。所以它只是没做而已,医疗是典型场景。

Q:有什么是百川能做,但国内巨头不能做的?

A:医疗也是。公司一把手要有这方面的信仰,而且巨头之前做医疗做伤了。

Q:杨植麟和朱啸虎一个代表“技术信仰派”,一个代表“市场信仰派”,怎么用一个词概括你?

A:看得更完整。技术容易看得远,商业容易看得近。现在更多不是远近问题,是完整问题。



Q:能不能回应朱啸虎对中国大模型公司的关键质疑?让我们一条一条看一下。

他一共点名你三次。第一次他说:“你说这些创业公司有啥优势,有啥条件去做大模型?百川发布了给游戏的NPC,你有啥数据去训练游戏的NPC。大厂有大把、大把数据。我让一个公司去体验了一下,没看出任何区别。”

A:首先他已经定位赚快钱,要做立刻有场景、商业的。

你要盖一个小卖铺,还是盖一个摩天大楼?

我们盖摩天楼,可能有个地基打在那,是局部一小块。你说拿那个东西就小卖部变摩天大楼?不是的。他举NPC的例子,不代表我们在娱乐完整的思考,只见了零部件。

Q:第二,他提出了一个扎心的问题:GPT-4你要不要投入做科研?做GPT-4至少四五千万美金,GPT-5至少几亿美金。关键是万一你砸这么多钱,别人开源了,不就全白砸了?

A:他这话大部分对。我们的策略叫“理想上慢一步,落地上快三步”,暗合了他这个题目。我不是追求人家有GPT-4,你就有GPT-4;人家有GPT-5,你就有GPT-5的绝对速度。而是,

你有GPT-4,我们已经开始有应用了;等我到GPT-4,我们的应用变得更好了。

敢砸钱的条件是我们对应用场景想得更清楚。 

Q:别人开源怎么办?

A:我不认为开源会做出最好的模型。而且要分具体场景,医疗开源是不会做好的。

Q:第三,他说,AIGC PMF(Product/Market Fit,产品/市场匹配)你十个人找不到,投一百个人也同样找不到,和人数、成本没有关系。拿LLaMA训练两三个月就够了,他被投公司最差的只有一张卡。

A:幸存者偏见吧。毕竟他投的公司是用小算力找到的M(市场)。今天这个M,有的快是赚快钱的方法,有的慢是赚慢钱的方法,都存在。医疗这个M,哪个公司它在做?拿小模型搞的定吗?

我没有跟朱啸虎谈过医疗场景,你不要去掰他的爱好,

我们就不在他的审美品类里。

你被一个公司改变了审美,也挺痛苦的。

Q:第四,他说,今天说个人助理都是技术人员的想象,我就问你几个人需要个人助理?是典型伪需求。

A:助理,还是抽象、很空的一个词。如果给你一个律师,一个医生,一个购物顾问,大家是需要的。我们得谈一个大家见过,甚至花钱买过的服务,只是今天供给缺乏。通用助理没构成一个行业。我们在公司叫行政助理、生活助理、业务助理。你得谈具体什么东西才有画面感。

顾问(可能更准确)。助理是我动脑子、你动手脚。但现在大模型不是动手脚,是动脑子的。大模型是决策引擎。

Q:第五,他批评这批大模型公司连“AI四小龙”都不如,“四小龙”还有黄金时代,进入的时候竞争没有那么激烈,在资本泡沫中长大,后来才杀价格。今天200多个大模型,已经开始杀价格了。

A:还是把它当成一个to B、大家做一样的事(去看待)。

大场景需要大技术,小场景用小技术,只是大场景现在并没有形成共识。

反而这是我们的机会。

Q:第六,他质疑在融资上,下一步钱不好拿,估值已经抬到这里了,后面估值怎么弄?

A:

朱啸虎的核心观点就是:有用的东西是啥?还是我讲的TPF(Technology-Problem Fit,技术与行业现存问题相契合)。今天核心问题是,大家不知道product(产品)是啥?——product不能是scaling law(规模法则)。

以前是先有M(市场),后有P(产品),用P去fit这个M。现在大家对P,都没提出来,更不用谈fit了。而且P是从T(技术)过来,因此TPF是今天要讨论的问题,而不是PMF。

这个技术适合做什么样的product?你再说product是否有market?

大模型的P是什么东西?娱乐最后走向“开放世界”或者“太虚幻境”,“开放世界”造的顾问需要大T来支持。比如Sora,大家觉得造了个钢琴,你敲什么音乐它都能给你奏出乐章。但我们今天不是造钢琴是瓶颈,造乐章、造乐谱是关键。今天大家看到皮囊,没有看到灵魂。大模型不是做皮囊,大模型是做认知引擎、决策引擎、推理引擎。

假设我们能在中国供给医生,我能用AI做出100万医生,它是什么样的一个价值?

在TPF里面,我回答你,至少我们有一支是在做医生的。

Q:第七,朱啸虎认为中美AI生态差别会非常大,这个你可能是认同他的。你构想的中美生态差异是怎样的?

A:美国拿着锤子找钉子适合他们。

我们今天需要更快把场景打开,有些场景形成数据飞轮,甚至形成全球化优势。我有这样一个画面感。

Q:杨植麟的观点有什么是你认可的吗?

A:杨植麟有很好的技术理想,相信scaling law,相信long-context,相信多模态。他的大部分技术(判断)都是对的呀。

Q:你不认同他的是?

A:他叫“场景摩尔定律”,我不知道场景在哪儿,我能力好,场景就拓宽了。这是一个局部,肯定会发生。他讲的东西是能够部分兑现,但都不是全部。

Q:更全面应该怎么阐释?

A:我能直接回答TPF,我知道P是啥。我们更有好的场景定义,场景反过来丰富数据生产。而不是说这个可以拿过去看简历了,可以看word文档了。这个逻辑只是片面的——还是那个象尾巴。

Q:所以你是从场景看技术,他是从技术看场景。

A:场景、技术我都看。

Q:朱啸虎的观点哪些是你认可的?

A:商业本质,最后得回到能赚钱,有场景。因为没看到,所以他有这样的结论,他的推理没问题。

Q:在你看来,为什么朱啸虎在访谈中反复点名你?为什么是你?

A:说明他想念我呗(笑)。找机会跟他再深度聊一聊。



Q:你会坚定地砸GPT-4吗?

A:对我来讲一点不虚的原因,我们对场景的思考。我们在通向AGI的路有各种坡,很多坡你不知道商业模式,也不知道场景——但我们会知道在造人。医生是一个顶天立地的场景,立地是它对服务有意义,顶天是它对大模型有需求。我们砸大模型,至少有一根支柱,确保模型的技术能力变成场景的壁垒。

Q:多长时间追上GPT-4,多长时间追上Sora,有时间预期吗?

A:Sora不在我们的主线,Sora的高度、突破性、应用价值低于GPT。

李彦宏之前不是在讲百度更懂中文嘛,他很幻觉主义

——你说他现实主义吗?理想主义吗?都不是。去年2月就喊出比OpenAI只差两个月,已经够有幻觉了。

Q:你怎么看他最近说,在中文上,文心大模型4.0已经超过GPT-4?

A:他举的例子你看了吗?写词写得更好。他说GPT写一个《沁园春》,都分不清楚4个字、5个字开头,他们自己也分不清楚,你可以试试。他不仅对GPT有误解,对自己的产品有误解,对国内模型也有误解,那不是活在自己幻觉中?

你得问他的团队怎么汇报工作,他怎么形成这样一个输入。这个人是一个也正直,也聪明的人,更多是信息输入不太对。

Q:你怎么保证你的团队给你的汇报是信息充分且正确的?

A:要跟大家打成一片,有共同利益。创业公司先天有优势。第一,大家都知道模型做不好,公司做不好,大家都挂了。在一条船上,都在驾驶舱。第二,大家能有充分共创,不是老板和员工的关系。大厂这方面难很多。

Q:怎么看字节做大模型和他们的进展?

A:大家对他们的期待值挺高,现在低于预期。他们内部觉得没有挖到顶尖的人,应该还有机会。他们有足够多的资金,足够多的算力,足够多的人才号召力。

Q:他们存在组织问题吗?

A:存在。

大概四五年前,我有一次跟李斌在聊。我当时是苹果粉,就跟李斌说,苹果的手机、手表、Pad我都买了,苹果往下造车,它的车我一定会买。

李斌说:“呵呵,苹果造不出车来。”李斌四五年前讲这话,我都惊着了。我想苹果顶尖人才有,供应链有,钱无限多,号召力也有,它具有造车的所有要素。但是苹果造了十年车,消耗了100亿美金,甚至没做出来。李斌预言了这件事。

Q:你的团队现在怎么设置?

A:现在240多人,算法技术占比70%,多位技术联创——有90后,也有在互联网时代创过业打过硬仗的。我搭班子的时候,并不是一开始就找纯小鲜肉,做以年轻人为主导的公司。今天的大模型不是靠技术理想主义推动的一件事,需要更多对现实的考虑,对技术通盘的看法,甚至有人文哲学高度的一个组织。

Q:团队有多少是以前搜狗的人?

A:百分之二三十吧。第一天开始做的时候,已经磨合过。

Q:有人会说搜狗在浏览器和搜索都不是第一,为什么原班人马可以在大模型上干到第一?

A:那我也想问,还什么都没干过,凭什么干第一呢?一定要看背后语境。

能在那个时代把搜索做到18%市场份额,换任何一个其他人都做不到,在全中国。

这是一个完全死局的东西活到现在。

而且你为什么只看浏览器和搜索,不看输入法?输入法反而是离大模型最近的产品,它是把互联网压缩成一个语言模型,输出next token。

Q:搜狗的经验对大模型创业的帮助是什么?差异是什么?

A:我们完整经历过整个体系,方向感我们特别好,实操中需要更多大模型年轻的researcher或博士操刀。

Q:你在搜狗提出过有名的“三级火箭”理论,今天大模型的“三级火箭”是什么?

A:可能不需要三级火箭了,现在分成三层:能力、场景和应用。

很有可能能力和场景就已经决定应用的成败,应用上的外挂会少很多。

Q:搜索会成为你们的包袱吗?

A:还好。

今天不是做好搜索,而是用好搜索,这是很大区别。

各种调教模型怎么用搜索。

Q:你刚才提到搜狗的经历是在死局里找出路,最难是什么时候?

A:比百度晚这么久,怎么办?我们找出做输入法、浏览器的一套打法。

在战略选择上,到底跟随百度还是绕过百度?决策有不同的意见。搜狐想跟着百度背后走,正面进攻百度的搜索,那会的提法叫“我的天职是搜索”——这是老张(搜狐创始人兼CEO张朝阳)定的slogan。我力图定的叫“搜狗从上网开始”,强调入口。对搜狗定位理解不一样,影响到战略决策,比如浏览器到底该不该做,到后来是推荐引擎该不该做。

2011年我调了一个小50人团队做推荐引擎,那会推荐是未来,流量分发比搜索效率高。但集团内部并没达成一致。

Q:那时字节快出来了?

A:对,战略方向的选择是一个公司成败关键。

Q:搜狗如果做什么可能会比今天更好?

A:在当时,我们想走的路线是做推荐,2011年已经开始做了。

我听到说字节是怕得要死了。

但(我们)组织上并没有把它变成最重要业务。我当时跟清华沟通,和清华有联合实验室,提法就是搜索不是未来,不要搞搜索了,我们搞推荐去吧。只是学校过去了,我们没跟进。

Q:后来那50人团队怎么样了?

A:到2012年就开始在讨论(搜狗)是不是卖给360,更多是讨论上层稳定性的问题了。

Q:今天在大模型战局中的你和当年的你有什么不一样?

A:以前比百度晚三四年,这次在时态脉搏下做事。同时,自己能完整做主,这次我把自己名字放进去,也投钱进去了。

Q:为什么当时你没有想到一个选择是我要从搜狐、搜狗出去,为什么一直留在那里(一干快20年)?

A:这是个人特质。你就是觉得信仰老板,信仰一件事情往前走,有阻力克服。当时资本结构不太顺利。

2008年之后老张不相信浏览器,把我拿下,我想的不是离职——我想的是,得回到做CEO的位置才行。

(我用了)18个月。

Q:那段被边缘化的经历,对你的影响是什么?

A:边缘化是人生重大变化。以前人也挺温和,但其实你不问世事,活在自己的世界里。到后来,你对更多人有更多尊重、更多体谅。我们都讲“千面英雄”、“自然时刻”,人进入自然时刻才能成熟。

Q:后来搜狗发生了一系列的事,包括和360、阿里谈判,和360、腾讯谈判,后来接受腾讯投资及并购,你是怎么走每一步的?

A:这都往事了。我经历过那么多挫折,今天遇到困难,成熟度会高一些。跟大厂的关系,你能理解他们要什么。

虽然搜狗没有做成大厂,但是拆开看里面,我们承受和经历了大家不能想象的东西。

Q:有人评价说,你的成功经验有一项是“有丰富的和巨头共舞的经验”,你认为这是你成功的一项秘诀吗?

A:不关键,

关键是对技术的热爱以及把技术变成价值的一种追求。你带着这种信念跟巨头谈,用价值感染他们。



Q:怎么形容去年一年的状态?

A:

为了能赶上这个时代的火车,快速rush的一个状态。

我们是成立的比较晚的一个公司,跑得快很重要。但去年更多在follow GPT的路径,不是我心中最有力量感的事情。

到今年,我们希望把自己的价值观和对世界的理解放到模型里。

Q:去年入局相对较晚对战局有什么影响?

A:王慧文是2023年2月下场,MiniMax是2021年,智谱AI是2019年,还有百度、字节这种老牌公司。去年你在人才争夺、资金争夺,是偏晚的一个,很仓促。

我习惯一个把事想透了以后,按自己节奏走。但第一阶段必须按市场节奏,到(去年)6月前都挺累的。发了第一个版本好很多了。(那段时间)每天要去招人,跟投资人打交道,但你手上没有产品。

Q:你信仰scaling law吗?

A:这件事没错,更多是怎么把它转化成产品价值,这很少讨论。这使得我们被迫去仰望一个技术。

低估技术和仰望技术都不是好状态。

低估技术觉得技术无用,仰望呢,非技术的人更愿意把技术捧在手里,当光环。这不利于平等对话。

Q:2024年预计大模型公司的瓶颈是什么?

A:中国这边,应用跟不上的时候,会变成游说资本的游戏。如果不能把场景尽快打开,越往后走压力越大。模型往前走,技术是你的发动机,市场是你的方向盘。你可以先造发动机,再造车。但当你上路,两个都得有才行。

美国走的道路,反正有钱有算力,他们就冲着AGI去了。你问他们应用,他们也不知道。

Q:你会觉得你太过于温和吗?

A:

我觉得我挺温和的,但同事觉得我还挺暴躁。

Q:你发火吗?平时。

A:比较少。

今年他们想做Sora,被我摁死在这了。

为什么做Sora?不是有个技术我就得跟。从AGI理想说,Sora不是跟GPT一支的。AGI理想一定要以语言为中轴做模型。语言这个概念空间不是Sora这种模型能取代的,Sora是需要把语言加进去,或者需要视频把语言加进去,才能变成往AGI走的引擎。Sora是阶段产物。

在内部会上,他们不是谈Sora,他们知道我不要做Sora。但就开始讲,多模态要搞一搞,视频要搞一搞。我知道他们还是在想Sora——大家没有站到更长远的角度考虑终局,我到底在干嘛?我要么做技术理想,要么做应用场景,我希望大家有明确的判断。

(我们)做多模态,但不复刻Sora,它既不代表AGI,也不代表场景,两个都不靠。过完年回来,大概一星期内形成这样一个决定——

我拍板的。

Q:百川的终局会是什么样的?

A:在创造、健康、快乐里给大家提供普惠知识和服务,回到AGI最后的应用是什么。

Q:所谓的超级应用,多大算超级?

A:得千万DAU吧。

Q:你之前说过,很长时间都处在“有压力的优秀”状态里,今天走出“有压力的优秀”了吗?

A:

去年是有这种压力的,但过完春节,这种压力没了。我也不知道为什么。

过年期间在成都,和家人在一块,很放松。翻过年之后,对于未来的画面感和怎么做,变得不纠结。

去年有两个惯性。一个惯性是把跟随GPT-3.5和GPT-4变成最主要任务。二是在模型之外,希望通过应用思考有些外部的能力可以帮助模型,而不是模型跟应用是一体的。

过完年之后,“模型应用一体化”的思路就更强烈了。

把这种差异化放在模型里,而不是说做GPT-3.5、GPT-4外面挂里面的应用。思路和执行,更统一了。

内心的压力小一些,就会更有力量,大家也能感受到决策的质量和坚定度更高。如果去年出来Sora,可能大家会更焦虑一点。今年过完年,至少我不焦虑了。

Q:现在你把时间花费最多的地方在哪?

A:在内部如何能达成技术、产品之间的共识,不断把T和P更好衔接起来。

Q:这会是你最后一次创业吗?

A:应该是吧。第一次是半创业状态,没有再想在百川之外再做一个。完整创业就一次,很多事没必要做两次。

Q:对这段创业的预期是什么,要做一个多大的公司?

A:没这么看。能把我们的认知、能力变成一个公司并创造价值,是特别好的一件事。

Q:你今天手机里装的东西和之前有什么不一样?

A:我手机里面多了ChatGPT、文心一言、Kimi智能助理,还多了叫SynClub的(AI社交)软件。

Q:过去一年记忆最深的一本书或者一部电影?

A:

《年会不能停》。昨天我跟大鹏吃了个午饭。

朋友叙旧,聊聊电影的未来。他拍的电影很亲切,他之前在搜狐一块工作过,他的《煎饼侠》挺有周星弛的影子。是一个小人物有大梦想的故事,有些无厘头的嬉皮的东西。但是他比周星驰人缘好很多,吴君如什么的都愿意帮他。

我确实有时候流眼泪,有时候觉得好笑。会有一种同感在里面。

Q:你一直是学霸路径,没有强烈的小人物奋斗史,为什么会有共鸣?

A:电影很多是在体验别人的人生,不仅仅是在体验自己的。

Q:如果百川的命运最终和搜狗类似,会让你感到不服气吗?

A:这没什么。如果(说的是收购)该卖卖,是可以接受的。我没有太大纠结,更多是创造它该有的价值。

原来搜狗在百度的阴影里,这群优秀的人没有发挥出他们最大价值。

Q:会觉得今天在OpenAI的阴影里吗?

A:不太会,在美国、中国两个市场。关键我能做自己的目标决策了。不会再站在阴影里。

Q:你说以前性格是温和,经历挫折以后,后来增加了什么?

A:对其他人的一种尊重和包容。

Q:那不是更温和了?

A:原来温和,但却是孤傲的人,你不想别人怎么思考。现在可能会更和蔼一些。

我还记得一个话:见佛就拜,见塔就扫。这是发自内心的。

每个人都是一尊佛,你对这个世界,有一种“大我”存在。

- End -

- 全文1.4w字,感谢您的耐心阅读 -


本文首发于腾讯新闻,原文链接:

张小珺,公众号:腾讯科技王小川想提出中国AGI第三种可能性



继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存